3D human whole-body pose estimation aims to localize precise 3D keypoints on the entire human body, including the face, hands, body, and feet. Due to the lack of a large-scale fully annotated 3D whole-body dataset, a common approach has been to train several deep networks separately on datasets dedicated to specific body parts, and combine them during inference. This approach suffers from complex training and inference pipelines because of the different biases in each dataset used. It also lacks a common benchmark which makes it difficult to compare different methods. To address these issues, we introduce Human3.6M 3D WholeBody (H3WB) which provides whole-body annotations for the Human3.6M dataset using the COCO Wholebody layout. H3WB is a large scale dataset with 133 whole-body keypoint annotations on 100K images, made possible by our new multi-view pipeline. Along with H3WB, we propose 3 tasks: i) 3D whole-body pose lifting from 2D complete whole-body pose, ii) 3D whole-body pose lifting from 2D incomplete whole-body pose, iii) 3D whole-body pose estimation from a single RGB image. We also report several baselines from popular methods for these tasks. The dataset is publicly available at \url{https://github.com/wholebody3d/wholebody3d}.
translated by 谷歌翻译
我们为视频中的无监督对象细分提出了一种简单而强大的方法。我们引入了一个目标函数,其最小值代表输入序列上主要显着对象的掩码。它仅依赖于独立的图像特征和光流,可以使用现成的自我监督方法获得。它以序列的长度缩放,不需要超级像素或稀疏,并且在没有任何特定培训的情况下将其推广到不同的数据集。该目标函数实际上可以从应用于整个视频的光谱群集形式得出。我们的方法通过标准基准(Davis2016,segtrack-v2,fbms59)实现了PAR的性能,同时在概念上且实际上更简单。代码可从https://ponimatkin.github.io/ssl-vos获得。
translated by 谷歌翻译
在本文中,我们介绍了计算机视觉研讨会上的女性 - WICV 2022,与路易斯安那州新奥尔良的混合CVPR 2022一起组织。它为计算机视觉社区中的少数(女性)群体提供了声音,并着重于提高这些研究人员在学术界和工业中的可见性。 WICV认为,这样的事件可以在降低计算机视觉领域的性别失衡方面发挥重要作用。 WICV每年都会组织a)a)从少数群体的研究人员之间合作的机会,b)指导女性初级研究人员,c)向演示者提供财政支持,以克服货币负担,D)榜样的大量选择,他们可以在职业生涯开始时,是年轻研究人员的例子。在本文中,我们介绍了有关研讨会计划的报告,过去几年的趋势,关于WICV 2022讲习班的演示者,与会者和赞助的统计摘要。
translated by 谷歌翻译
本文介绍了Houghnet,这是一种单阶段,无锚,基于投票的,自下而上的对象检测方法。受到广义的霍夫变换的启发,霍尼特通过在该位置投票的总和确定了某个位置的物体的存在。投票是根据对数极极投票领域的近距离和长距离地点收集的。由于这种投票机制,Houghnet能够整合近距离和远程的班级条件证据以进行视觉识别,从而概括和增强当前的对象检测方法,这通常仅依赖于本地证据。在可可数据集中,Houghnet的最佳型号达到$ 46.4 $ $ $ ap $(和$ 65.1 $ $ $ ap_ {50} $),与自下而上的对象检测中的最先进的作品相同,超越了最重要的一项 - 阶段和两阶段方法。我们进一步验证了提案在其他视觉检测任务中的有效性,即视频对象检测,实例分割,3D对象检测和人为姿势估计的关键点检测以及其他“图像”图像生成任务的附加“标签”,其中集成的集成在所有情况下,我们的投票模块始终提高性能。代码可在https://github.com/nerminsamet/houghnet上找到。
translated by 谷歌翻译
对抗机器学习是一个新兴领域,显示了深度学习模型的脆弱性。探索攻击方法以挑战艺术人工智能状态(A.I.)模型是一个关键问题的领域。这种A.I.的可靠性和鲁棒性模型是越来越多的有效对抗攻击方法的主要问题之一。分类任务是对抗攻击的主要脆弱区域。大多数攻击策略都是针对彩色或灰色尺度图像开发的。因此,对二进制图像识别系统的对抗性攻击尚未得到充分研究。二进制图像是带有单个通道的简单两个可能的像素值信号。与彩色和灰色缩放图像相比,二进制图像的简单性具有显着优势,即计算效率。此外,大多数光学角色识别系统(O.C.R.S),例如手写字符识别,板号识别和银行检查识别系统,在其处理步骤中使用二进制图像或二进制化。在本文中,我们提出了一种简单而有效的攻击方法,有效的组合黑盒对抗攻击,对二进制图像分类器。我们在两个不同的数据集和三个分类网络上验证了攻击技术的效率,以证明其性能。此外,我们将提出的方法与有关优势和缺点以及适用性的最先进方法进行了比较。
translated by 谷歌翻译
双线性动力系统在许多不同的域中无处不在,也可以用于近似更通用的控制型系统。这激发了从系统状态和输入的单个轨迹中学习双线性系统的问题。在温和的边际均方稳定性假设下,我们确定需要多少数据来估算未知的双线性系统,直至具有高概率的所需精度。就轨迹长度,系统的维度和输入大小而言,我们的样本复杂性和统计错误率是最佳的。我们的证明技术依赖于Martingale小球条件的应用。这使我们能够正确捕获问题的属性,特别是我们的错误率不会随着不稳定性的增加而恶化。最后,我们表明数值实验与我们的理论结果良好。
translated by 谷歌翻译
标准联合优化方法成功地适用于单层结构的随机问题。然而,许多当代的ML问题 - 包括对抗性鲁棒性,超参数调整和参与者 - 批判性 - 属于嵌套的双层编程,这些编程包含微型型和组成优化。在这项工作中,我们提出了\ fedblo:一种联合交替的随机梯度方法来解决一般的嵌套问题。我们在存在异质数据的情况下为\ fedblo建立了可证明的收敛速率,并引入了二聚体,最小值和组成优化的变化。\ fedblo引入了多种创新,包括联邦高级计算和降低方差,以解决内部级别的异质性。我们通过有关超参数\&超代理学习和最小值优化的实验来补充我们的理论,以证明我们方法在实践中的好处。代码可在https://github.com/ucr-optml/fednest上找到。
translated by 谷歌翻译
In continual learning (CL), the goal is to design models that can learn a sequence of tasks without catastrophic forgetting. While there is a rich set of techniques for CL, relatively little understanding exists on how representations built by previous tasks benefit new tasks that are added to the network. To address this, we study the problem of continual representation learning (CRL) where we learn an evolving representation as new tasks arrive. Focusing on zero-forgetting methods where tasks are embedded in subnetworks (e.g., PackNet), we first provide experiments demonstrating CRL can significantly boost sample efficiency when learning new tasks. To explain this, we establish theoretical guarantees for CRL by providing sample complexity and generalization error bounds for new tasks by formalizing the statistical benefits of previously-learned representations. Our analysis and experiments also highlight the importance of the order in which we learn the tasks. Specifically, we show that CL benefits if the initial tasks have large sample size and high "representation diversity". Diversity ensures that adding new tasks incurs small representation mismatch and can be learned with few samples while training only few additional nonzero weights. Finally, we ask whether one can ensure each task subnetwork to be efficient during inference time while retaining the benefits of representation learning. To this end, we propose an inference-efficient variation of PackNet called Efficient Sparse PackNet (ESPN) which employs joint channel & weight pruning. ESPN embeds tasks in channel-sparse subnets requiring up to 80% less FLOPs to compute while approximately retaining accuracy and is very competitive with a variety of baselines. In summary, this work takes a step towards data and compute-efficient CL with a representation learning perspective. GitHub page: https://github.com/ucr-optml/CtRL
translated by 谷歌翻译
在本文中,我们研究了在非静止环境中的多任务决策的代表学习。我们考虑顺序线性炸匪的框架,其中代理执行从与不同环境相关联的不同集合绘制的一系列任务。每个集合中任务的嵌入式共享一个名为表示表示的低维特征提取器,并且横跨集合不同。我们提出了一种在线算法,通过以自适应方式学习和转移非静止表示来促进有效的决策。我们证明我们的算法显着优于独立处理任务的现有问题。我们还使用合成和实际数据进行实验,以验证我们的理论见解并展示我们算法的功效。
translated by 谷歌翻译
筛选行李X射线扫描的筛选杂乱和闭塞违禁品,即使对于专家的安全人员而言,甚至是一个繁琐的任务。本文提出了一种新的策略,其扩展了传统的编码器 - 解码器架构,以执行实例感知分段,并在不使用任何附加子网络或对象检测器的情况下执行违反互斥项的合并实例。编码器 - 解码器网络首先执行传统的语义分割,并检索杂乱的行李物品。然后,该模型在训练期间逐步发展,以识别各个情况,使用显着减少的训练批次。为了避免灾难性的遗忘,一种新颖的客观函数通过保留先前获得的知识来最小化每次迭代中的网络损失,同时通过贝叶斯推断解决其复杂的结构依赖性。对我们两个公开的X射线数据集的框架进行了全面评估,表明它优于最先进的方法,特别是在挑战的杂乱场景中,同时在检测准确性和效率之间实现最佳的权衡。
translated by 谷歌翻译